Адміністрація вирішила продати даний сайт. За детальною інформацією звертайтесь за адресою: rozrahu@gmail.com

ВИВЧЕННЯ БІБЛІОТЕКИ ПРИКЛАДНИХ ПРОГРАМ NLTK, ДЛЯ ОПРАЦЮВАННЯ ТЕКСТІВ ПРИРОДНОЮ МОВОЮ. АВТОМАТИЧНИЙ МОРФОЛОГІЧНИЙ АНАЛІЗ.

Інформація про навчальний заклад

ВУЗ:
Національний університет Львівська політехніка
Інститут:
Не вказано
Факультет:
Не вказано
Кафедра:
Системи автоматизованого проектуваня

Інформація про роботу

Рік:
2008
Тип роботи:
Лабораторна робота
Предмет:
Комп’ютерна лінгвістика
Група:
ПРЛм

Частина тексту файла

МІНІСТЕРСТВО ОСВІТИ І НАУКИ УКРАЇНИ НАЦІОНАЛЬНИЙ УНІВЕРСИТЕТ “ЛЬВІВСЬКА ПОЛІТЕХНІКА” іНСТИТУТ КОМП’ютерних НАУК та ІНФОРМАЦІЙНИХ ТЕХНОЛОГІЙ Кафедра “Системи автоматизованого проектування” Звіт до лабораторної роботи №6 ВИВЧЕННЯ БІБЛІОТЕКИ ПРИКЛАДНИХ ПРОГРАМ NLTK, ДЛЯ ОПРАЦЮВАННЯ ТЕКСТІВ ПРИРОДНОЮ МОВОЮ. АВТОМАТИЧНИЙ МОРФОЛОГІЧНИЙ АНАЛІЗ (частина2). Виконала: ст. гр. ПРЛм-1 Львів 2008 МЕТА РОБОТИ Вивчення основ програмування на мові Python. Ознайомлення з автоматичним морфологічним аналізом в NLTK. КОРОТКІ ТЕОРЕТИЧНІ ВІДОМОСТІ Початкова точка та багатопрохідний аналізатор (baselines and backoff). Продуктивність аналізаторів, які розглядалися в попередній лабораторній роботі є невисокою. Для підвищення продуктивності, приблизно до 90%, необхідно виконати наступні дії. Потрібно встановити більш принципову початкову точку продуктивності ніж в аналізатора по замовчуванню, який є занадто простий та в аналізатора на основі регулярних виразів, який також дає довільні результати. Потрібно забезпечити багато прохідність аналізу, таким чином, що якщо більш спеціалізований аналізатор не може знайти відповідного тега то відбувається повернення до більш загального аналізатора. Двопрохідний аналізатор (backoff). У випадку, коли спочатку потрібно використати аналізатор на основі підстановок, а потім, якщо він не зміг встановити відповідного тега, використати аналізатор по замовчуванню необхідно поєднати ці два аналізатори. Для цього потрібно визначити аналізатор по замовчуванню, як аргумент в аналізаторі на основі підстановок і який буде викликати його кожен раз коли не зможе встановити самостійно відповідний тег. Юніграм аналізатор (unigram). Tag.Unigram – це клас, який реалізовує простий статистичний алгоритм маркування слів. Кожному слову (tokens) ставиться у відповідність тег, який має найбільшу ймовірність. Наприклад, згідно цього алгоритму тег jj буде поставлений у відповідність до кожного слова frequent (випадку появи) в тексті, оскільки це слово частіше використовується, як прикметник (a frequent word) і рідко як дієслово (I frequent this lecture). Перед використанням юніграм аналізатора для аналізу тексту потрібно провести його тренування на розміченому корпусі текстів. Аналізатор використовує корпус для визначення тегів, які властиві кожному слову. Тренування проводиться за допомогою метода train(), який має один аргумент – розмічений корпус. Комбінування аналізаторів. Одним з методів знаходження балансу між точністю аналізаторів та охопленням лексики це використовувати більш точні алгоритми коли можливо це зробити і повертатись до алгоритмів з більшим охопленням коли це необхідно. Наприклад, можна комбінувати результати роботи біграм аналізатора, юніграм аналізатора та аналізатора по замовчуванню наступним чином: Визначаємо теги за допомогою біграм аналізатора Якщо біграм аналізатор не встановив тег для поточного слова – використовується юнігам аналізатор. Якщо юніграм аналізатор не встановив тег для поточного слова – використовується аналізатор по замовчуванню. Кожен NLTK аналізатор, крім аналізатора по замовчувані може мати вказівку на використання іншого аналізатора для побудови багато прохідного аналізатора.
Антиботан аватар за замовчуванням

01.01.1970 03:01

Коментарі

Ви не можете залишити коментар. Для цього, будь ласка, увійдіть або зареєструйтесь.

Завантаження файлу

Якщо Ви маєте на своєму комп'ютері файли, пов'язані з навчанням( розрахункові, лабораторні, практичні, контрольні роботи та інше...), і Вам не шкода ними поділитись - то скористайтесь формою для завантаження файлу, попередньо заархівувавши все в архів .rar або .zip розміром до 100мб, і до нього невдовзі отримають доступ студенти всієї України! Ви отримаєте грошову винагороду в кінці місяця, якщо станете одним з трьох переможців!
Стань активним учасником руху antibotan!
Поділись актуальною інформацією,
і отримай привілеї у користуванні архівом! Детальніше

Оголошення від адміністратора

Антиботан аватар за замовчуванням

пропонує роботу

Admin

26.02.2019 12:38

Привіт усім учасникам нашого порталу! Хороші новини - з‘явилась можливість кожному заробити на своїх знаннях та вміннях. Тепер Ви можете продавати свої роботи на сайті заробляючи кошти, рейтинг і довіру користувачів. Потрібно завантажити роботу, вказати ціну і додати один інформативний скріншот з деякими частинами виконаних завдань. Навіть одна якісна і всім необхідна робота може продатися сотні разів. «Головою заробляти» продуктивніше ніж руками! :-)

Новини